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摘要 :【 目 的 】 驱 避 剂 可 使 害虫 不 敢 接 近 受 用 者 从 而 保护 受用 者 免 遭 其 害 。 建 立 高 精度 .可 解释 性 强 的 非 线性 定量 构 
效 关系 (quantitative structure-activity relationship, QSAR ) 模型 对 设计 合成 新 的 高 效 昆 虫 驱 避 剂 有 重要 意义 。【 方 法 】 基 
于 37 个 芳香 羧 酸 类 化 合 物 对 家 晶 Musca domestica 的 驱 避 活性 ,以 量子 化 学 计算 软件 PCLIENT 获取 每 一 化 合 物 初始 
描述 符 , 以 二 元 矩阵 重 排 过 滤器 .多 轮 末 尾 淘汰 实施 特征 非 线性 筛选 ,以 支持 向 量 回归 (support vector regression， 
SVR) 建 立 非 线性 QSAR 模型 ,以 SVR 非 线性 解释 体系 分 析 各 保留 描述 符 对 驱 避 活性 的 影响 。【 结 果 】1 542 个 初始 描 
述 符 的 SVR 模型 刁 =1.2, 特 征 筛选 后 6 个 保留 描述 符 的 SVR 模型 尺 = 184. 6 ,特征 筛选 对 QSAR 模型 精度 有 重要 影 
响 。6 个 保留 分 子 描述 符 的 重要 性 依次 为 MBCD > GATS7v >T(0..0) > JG18 > Sss0 > nArCONR2。 【结论 ] 保 留 描述 
符 与 芳香 羧 酸 类 化 合 物 对 家 晶 驱 避 活 性 的 非 线 性 关系 明显 ,获得 了 高 精度 、 普 适 性 强 的 非 线性 SVR-QSAR 模型 。 
关键 词 : 驱 避 剂 ; 家 晶 ; 芳香 族 衍生 物 ; 驱 避 活性 ; 非 线性 ; 定量 构 效 关系 ; 支持 向 量 回归 
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Innovation and Utilization， Hunan Agricultural University, Changsha 410128, China; 3. Hunan 
Provincial Key Laboratory for Biology and Control of Plant Diseases and Insect Pests, Hunan Agricultural 
University, Changsha 410128, China) 

Abstract: [Aim) Repellent can protect the users by driving target pests away from them. Tt is important 
to establish a nonlinear quantitative structure-activity relationship ( QSAR) model with high precision and 
strong interpretation for designing and synthesizing the new insect repellent with higher bioactivity. 
【Methods】 Based on the repellent activities of 37 aromatic carboxylic acid derivatives against the 
housefly, Musca domestica, the initial descriptors were generated with stoichiometry software PCLIENT， 
and then the binary matrix shuffling filter ( BMSF) and worst descriptor elimination multi-round method 
(WDEM) were successively used to conduct the nonlinear selection for initial descriptors. With the 
reserved descriptors, a support vector regression (SVR) model was established for the QSAR analysis of 
these 37 repellent derivatives. The influence of reserved descriptors on repellent activities was further 
analyzed with SVR interpretation system. 【 Results 】The F-score of SVR model with original 1 542 
descriptors was 1.2. However, it was 184. 6 with the retained six descriptors after feature screening, 
indicating that feature screening has important effects on the precision of QSAR model. The importance of 
six molecular descriptors was as follows: p4BCD > GATS7v >T(0..0) >JGI8 >SssO > nArCONR2. 
【 Conclusion 】The nonlinear relationship between reserved descriptors and the repellent activities of 
aromatic carboxylic acid derivatives against M. domestica was remarkable, and a high-performance SVR- 
QSAR model for repellent derivatives was constructed. 
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驱 避 剂 可 扰乱 害虫 自然 行为 ,使 害虫 不 敢 接 近 
受用 者 从 而 保护 受用 者 免 遭 其 害 , 具 用 量 小 、 价 格 
低 \ 不 污染 环境 等 优点 ( 郊 草 玲 等 ,2006; Katritzky et 


























从 驱 避 机 理 上 , 驱 避 剂 或 者 干扰 嗅觉 系统 以 阻 断 昆 
虫 对 宿主 气味 的 识别 ,或 者 激活 嗅觉 神经 元 引起 昆 
虫 的 主动 躲避 行为 ( 雇 圣 良 等 ,2012a) ; 因此 , 驱 避 























al.,2008 ) 。 在 兽医 临床 上 ,以 已 有 同类 结构 驱 避 剂 
为 基础 ,设计 合成 新 的 高 效 昆虫 驱 避 剂 对 预防 外 寄 
生 虫 与 昆虫 疾病 有 重要 意义 ( 薛 飞 群 等 ,1997; 廖 圣 
良 等 ,2012a)。 

定量 构 效 关系 (quantitative structure-activity 
relationship, QSAR) 是 化 学 与 生物 学 的 桥梁 ( 钟 国 华 
和 胡 美 英 ,2001 ) 。 对 一 组 生物 活性 已 知 的 同类 结 
构 化 合 物 ,QSAR 建 模 包括 4 个 关键 步 又 :1 ) 分 子 描 
































剂 构 效 关系 需 结 合 昆虫 嗅觉 感受 器 相关 研究 成 果 。 
现 已 证 实 , DEET 能 阻 断 风 比 亚 按 蚁 Anopheles 
gambiae 嗅觉 感受 神经 对 引诱 化 合 物 的 电 生 理 反 
应 , 阻 断 食物 气味 对 果 蝇 的 引诱 行为 反应 ,高 度 保 守 
的 气味 受 体 蛋白 OR83b 是 DEET 的 分 子 靶 标 
(Ditzen et al.， 2008 ) 。 一 般 认 为 ,从 蠕虫 到 人 类 , 许 
多 气味 信号 的 接受 由 属于 G 蛋白 耦 联 受 体 家 族 中 
的 气味 受 体 与 挥发 性 的 配 体 结合 来 完成 ;但 新 发 现 



































述 符 获 了 到。 可 通过 量子 化 学 软件 计算 ,对 每 一 化 合 
物 获取 尽 可 能 全 面 的 分 子 描述 符 ( Natarajan et al， 
2008 ) 。2 ) 描 述 符 选择 。 无 关 与 见 余 描 述 符 影响 建 
模 精 度 ,增加 模型 复杂 性 并 使 得 模型 解释 困难 ( 代 
志 盏 等 ,2011 ) 。 分 子 描述 符 与 生物 活性 间 往 往 存 
在 复杂 的 非 线 性 关系 ,常用 的 逐步 线性 回归 特征 选 
择 方 法 失效 ( 钟 国 华 和 胡 美 英 ,2001)。 本 室 前 期 基 
于 支持 向 量 机 (support vector machine，SVM) 发 展 
了 高 维特 征 非 线 性 选择 新 方法 二 元 矩阵 重 排 过 滤器 
(binary matrix shuffling filter，BMSF) 与 低 维特 征 非 
线性 选择 新 方法 多 轮 末 尾 淘 汰 (worst descriptor 
elimination multi-roundly，WDEM) ,在 基于 芯片 数据 
的 瘤 信息 基因 选择 、 多 肽 定量 序 效 建 模 中 获得 成 功 
应 用 ( 代 志 军 等 ,2011;Zhang ef al., 2012) 。3 ) 回归 
模型 选择 。 描 述 符 (特征 ) 选择 完成 后 ,由 于 多 元 线 
性 回归 模型 非 线性 解析 能 力 不 足 ,而 人 工 神 经 网 络 
模型 基于 经 验 风险 最 小 ,存在 不 适 于 小 样本 、 易 产生 
过 拟 合 等 刺 端 ,本 文选 用 基于 结构 风险 最 小 、 非 线 
性 、 适 于 小 样本 、 能 有 效 避 人 免 过 拟 合 的 支持 向 量 回 归 
( support vector regression，SVR ) 建 模 ( Vapnik， 
1995) 。4 ) 模型 解释 。SVM 缺乏 一 个 显 性 的 表达 
式 , 可 解释 性 差 。 本 室 前 期 基于 了 测验 ,对 SVR 建 
立 了 一 套 较 完整 的 非 线性 解释 性 体系 ,并 经 多 个 多 
因素 多 水 平实 验 设计 与 配方 优化 实验 验证 了 其 合理 
性 与 有 效 性 ( 李 俊 等 ,2010; 周 世 豪 等 ,2012; 戴 长 庚 
等 ,2013 ) 。 

目前 昆虫 驱 避 剂 构 效 关 系 研 究 多 以 吸血 蚊虫 为 
丢 标 ,集中 于 避 蚊 腕 (N，N-diethyl-3-methyl 
benzamide，DEET) 及 其 类 似 物 ( 王 宗 德 等 ,2008 ) 。 
对 DEET 及 其 类 似 物 共 40 个 化 合 物 的 研究 表明 , 影 
响 驱 避 活性 的 主要 因素 包括 沸点 (蒸汽 压 或 挥发 
度 )、 分 子 的 形状 大 小 与 亲 脂 性 ( 巩 水 性 ) 等 
(Suryanarayana et al., 1991; Katritzky et al., 2006 ) 。 



























































昆虫 有 蜡 源 气味 受 体 (Sato et al., 2008) ,昆虫 的 气 
味 受 体形 成 了 配 体 门 探 通道 和 循环 核 苷 激发 的 无 选 
择 性 阳离子 通道 (Wicher ef al.，2008)。 最 近 ， 
Oliferenko 等 (2013 ) 从 43 个 酰胺 类 似 物 出 发 ,以 埃 
及 伊 蚊 4edes aegypti 的 气味 结合 蛋白 AaegOPB1 为 
靶 标 ,通过 分 子 场 拓 扑 分 析 、 分 子 对 接 等 筛选 到 了 多 
个 有 潜力 的 高 驱 避 活性 化 合 物 。 

本 研究 以 37 个 芳香 羧 酸 类 化 合 物 对 家 晶 
Musca domestica 的 驱 避 活性 为 对 象 ( 酚 飞 群 等 ， 
1997) ,每 一 化 合 物 以 量子 化 学 计算 软件 PCLIENT 
与 文献 获取 1 542 个 初始 描述 符 ( 薛 飞 群 等 ,1999 ) ， 
经 BMSF 与 WDEM 非 线性 筛选 ,获得 6 个 保留 分 子 
描述 符 ,建立 了 高 精度 的 非 线性 SVR-QSAR 模型 ， 
进一步 以 SVR 非 线性 解释 体系 分 析 了 各 保留 描述 
符 对 驱 避 活性 的 影响 。 结 果 报 道 如 下 。 






































1 材料 与 方法 


1.1 化 合 物 及 其 驱 避 活性 数据 来 源 

37 个 芳香 涛 酸 类 化 合 物 及 对 应 的 对 家 蝇 的 驱 
避 活 性 指标 见 表 1( 薛 飞 群 等 ,1999 ) ,活性 指标 为 百 
分 驱 避 率 等 于 50% 时 化 合 物 的 摩尔 浓度 的 倒数 
(log1/Cso)。 原 文 有 40 个 化 合 物 , 但 有 3 个 化 合 物 
驱 避 活性 未 测定 ,因此 舍 去 。 
1.2 分 子 描述 符 获 取 

每 一 化 合 物 用 PCLIENT 软件 (http://www. 
vcclab. org/lab/pclient/start. html ) 的 JME 编辑 器 画 
出 分 子 结构 并 导入 任务 窗口 ,根据 分 子 结 构 信 息 可 
算得 1 533 个 分 子 描述 符 ; 沸 点 参数 (B) \ 玻 水 性 参 
数 (logP) 、 电 性 参数 (5°) .立体 参数 ( MR, 和 MR, ) 、 
分 子 连接 性 指数 (' 闵 , *X, *X 和 'X" ) 等 9 个 分 子 描 
述 符 引 自 文献 ( 薛 飞 群 等 ,1999) ,其 中 化 合 物 M; 的 
沸点 参数 值 原文 缺失 ,本文 用 多 元 线性 回归 方法 插 
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表 1 37 个 化 合 物 的 保留 描述 符 及 对 家 蝇 的 生物 活性 


Table 1 The retained descriptors of 37 compounds and their biological activities against Musca domestica 











化 合 物 保留 的 描述 符 Retained descriptors 生物 活性 (logl/Cso ) Biological activity 
Compounds JGI8 CATS7v T(0..0) nArCONR2 p4BCD SssO Expe Pred 
Bl 0 0 —0.365 0 0 26.30 1.83 1.83 
B2 0 0 —0.596 0 0 26.30 2.18 2.13 
B3 0 0 —0.685 0 —1.000 26.30 2593 2.83 
B4 0.011 0 —0.930 0 —1.000 26.30 2;55 2.58 
B5 0 0 —0.664 0 0 20.31 2.78 2.65 
B6 0 0 —0.792 0 —0.923 20.31 3.15 3.06 
B7 0.008 0 —0.387 0 —0.007 26.30 1.38 1372 
B8 0 0 —0.785 0 —0.505 20.31 3.80 3.55 
El 0 —0.497 0 —0.960 35.53 2.85 2.92 
E2 0 —0.715 0 —0.883 35.53 3.19 3.11 
E3 0 0 —0.790 0 —0.554 35593 3522 3.23 
E4 0.010 0.385 —1.049 0 —0.262 35.53 3225 3.39 
ES 0 0 —0.789 0 —0.830 29.54 3.19 2.94 
E6 0 0 —1.054 0 —0.477 29.54 3223 3.17 
E7 0.007 0.523 —0.486 0 0 35.53 2.68 2.34 
E8 0.008 0.448 一 0.992 0 —0.035 29.54 3.27 2.95 
MI1 0 0 —0.240 0 —1.000 35.53 2.52 2.51 
M2 0 0 —0.457 0 —0.964 35.53 2.86 2.86 
M3 0 0 —0.583 0 —0.790 35.53 3.19 3.16 
M4 0.011 0.417 —0.804 0 -0.630 35.53 3.22 3.13 
M5 0 0 —0.532 0 一 0.907 29.54 2.86 2.88 
M6 0 0 —0.846 0 —0.691 29.54 2.91 3.33 
M7 0.009 0.540 —0.286 0 0 35.53 2.05 2333 
M8 0.010 0.547 —0.763 0 —0.049 29.54 2.64 3.08 
P1 0 0 -0.676 0 0 26.30 2.18 2.30 
P2 0. 020 0 —0.854 0 —1.000 26.30 2.51 2.54 
Pp3 0.020 0 —0.944 0 —0.991 26.30 2.55 2.51 
P4 0. 007 0 —1.224 0 —0.733 26.30 2.89 3.04 
PS 0 0 —0.592 0 —1.000 20.31 2.81 2.75 
P6 0.020 0 —0.888 0 —0.691 20.31 2.88 2.78 
P7 0.004 0 —0.645 0 0 26.30 2.03 1.99 
P8 0.008 0 —0.759 0 —0.049 20.31 2.60 2.60 
Sl 0 0 -0.212 1 0 46.53 2.18 1.77 
S2 0 0 -0.412 1 —1.000 46.53 2.,:52 2.52 
S3 0 0 —0.468 1 —0.991 46.53 2.56 2.57 
S4 0.008 0.460 一 0.727 1 —0.649 46.53 3.19 3.18 
S7 0.011 0.615 —0.238 1 —0.007 46.53 2.63 2.44 


Expe: 实验 值 Experimental value; Pred: 预测 值 Predicted value; Cso : 驱 避 率 等 于 50% 时 化 合 物 的 摩尔 浓度 Median repellent molarity. 


值 补 齐 。 每 一 化 合 物 共计 1 542 个 初始 描述 符 。 
1.3 ”分子 描述 符 选 择 

二 元 矩阵 重 排 过 滤器 BMSF 高 维特 征 粗 盘算 法 
如 下 :对 数据 矩阵 (y;, xy), i=1,2,…,n, j=1,2,， 
…,m, 有 m 个 分 子 描 述 符 ,n 个 样本 。 每 个 分 子 描 
述 符 有 0( 不 选取 ) 和 1( 选 取 ) 两 种 状态 。 产 生 一 个 
Kxm 随机 和 矩阵 ( 本 文 取 K=500) ,其 元 素 为 0 或 1， 
限定 每 列 0 与 1 的 个 数 相等 。 从 随机 和 矩阵 的 每 行 选 
取 值 为 1 的 矩阵 元 素 , 找 出 原始 训练 集中 对 应 分 子 
描述 符 , 以 SVR 经 10 折 交 又 测试 获得 个 均 方 误 
差 (mean square error，MSE ) 值 。K x m 随机 矩阵 




















( 自 变 量 ) 与 XK 个 MSE( 因 变 量 ) 组 成 新 训练 集 并 训 
练 建 模 ,随机 和 矩 阵 的 某 列 元 素 0 和 1 互 换 后 (其 他 列 
不 变 ) 为 测试 集 ,预测 得 K 个 MSE 与 XK 个 MSE,， 
若 均值 MSE。< 均值 MSE, , 则 殊 除 相应 分 子 描述 
符 ; 遍 历 m 次 ,得 第 一 轮 保留 分 子 描述 符 。 重 复 以 
上 过 程 ,经 多 轮 选 择 至 没有 分 子 描述 符 可 剔除 为 止 
(Zhang et al.,2012 ) 。 

多 轮 末 尾 淘汰 WDEM 低 维特 征 精 细 筛 选 算法 
如 下 :假定 BMSF 初 秘 后 有 m' 个 分 子 描述 符 。 对 数 
据 矩 阵 (y;, x%y) ,i=1,2,…,n, j=1,2,…,m', 以 
SVR 经 10 折 交 叉 测 试 得 初始 MSE, ,第 一 轮 依次 去 
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除 第 j 个 分 子 描述 符 ,SVR 交叉 测试 得 对 应 MSE,， 
奉 min( MSE,) 和 MSE, , 则 所 @ 除 相应 分 子 描述 符 并 
进入 下 一 轮 筛选 ,反之 筛选 结束 ( 代 志 军 等 ,2011) 。 
假定 WDEM 精 得 后 有 m” 个 保留 分 子 描述 符 。 
1.4 模型 解释 
基于 mw" 个 保留 分 子 描述 符 和 全 部 样本 构建 
SVR 模型 。 模 型 非 线性 回归 显著 性 测验 的 下 统计 
量 与 决定 系数 R 由 下 式 给 出 : 
U/m” 











ee 
U = > (2) 
Q = 并 人 (3 ) 


RE -y)” (4) 
其 中 ,7 为 回归 平方 和 ,0 为 剩余 离 差 平方 和 ,n 为 
样本 数 , m” 为 保留 分 子 描述 符 数 , y; 和 3 分 别 为 第 
i 个 样本 的 真 值 和 估计 值 , 7 为 所 有 样本 真 值 的 均 
值 ,的 自由 度 为 (m,n-m -1)。 知 R > Fh 
( m,n- m” -1), 则 在 a 水 平 上 非 线性 回归 显著 
( 谭 显 胜 等 ,2009)。 

单 因子 重要 性 显著 性 测验 : 固定 描述 符 % 为 
x ,由 预测 值 可 得 U; 和 Q; 。 在 SVR 模型 中 , SSy 尖 

















QQ+U,SSy #0;+U,; ,其 中 SSy = 2 -7y) 为 
离 差 平 方 和 。 注 意 到 对 同一 描述 符 x*; , VU; 和 0; 的 
大 小 仅 具 相对 性 ,为 使 各 因子 间 重 要 性 具 可 比 性 ,可 
将 0,,0,0 和 0 等 规格 化 到 SSy = 0, +U' = 0'+ 
U' ,再 作 下 测验 : 








QO; = Q/(Q; + U;) x SSy (5) 

LU = Uj/(Q; + U;) x SSy (6) 

OO = Q/(Q + U) xSSy (7) 

U' = U/(Q + U) x SSy (8) 

V=UV-U =0 -0 (9) 
V/1 

F, = i (10) 





’ O00/(n-m -1) 
了 的 自由 度 为 (1,n - m” -1)( 谭 显 胜 等 ,2009)。 
单 因子 效应 分 析 : 将 除 % 外 的 各 描述 符 固定 为 
其 均值 , 令 % 在 给 定 取 值 区间 内 按 一 定 步 长 取 值 ， 
代入 SVR 模型 得 预测 值 y, ,各 描述 符 通过 x'，= 


一 一 得 归 一 化 的 轴 坐 标 值 ,作出 一 分 
图 ( 谭 显 胜 等 ,2009 ) 。 
本 文 BMSF 高 维特 征 粗 筛 .WDEM 多 轮 末 尾 淘 


























汰 精 利 、SVR 建 模 和 非 线性 解释 体系 等 采用 自 纺 
MATLAB 程序 通过 调用 LIBSVM3. 1 软件 包 实现 
(Chang and Lin, 2011)。 核 函数 采用 径 向 基 核 , 核 
函数 参数 采用 Python 默认 范围 步 长 经 格 点 搜索 自 
动 获取 。 


2 结果 与 分 析 








2.1 芳香 羧 酸 类 驱 避 剂 的 SVR-QSAR 模型 

基于 37 个 样本 ,1 542 个 初始 描述 符 的 SVR 模 
型 六 =1.2, 经 BMSF 非 线 性 高 维特 征 初 第 后 21 个 
描述 符 的 SVR 模型 =4.9, 再 经 WDEM 精 得 后 6 
个 保留 描述 符 的 SVR 模型 FF= 184.6 > Foo (6， 
30) ,R* =0.9731 , 非 线性 回归 达 极 显著 。 可 见 特征 
筛选 效果 明显 。 

薛 飞 群 等 (1997 ) 从 40 个 样本 出 发 ,舍弃 5 个 
含有 茶 环 取代 基 的 化 合 物 和 5 个 含有 哌 啶 基 的 化 合 
物 ,得 到 的 最 优 回归 方程 为 : 

logl/C = -1.036 + 0.008B + 0.734logP - 0. 101 

logP? + 0.020MR, + 0.038MR, - 0. 1767 

n=30,R? =0.9274,F =92.0。 显然, 本文 所 建 
非 线 性 SVR 模型 精度 更 高 ,覆盖 样本 更 多 , 普 适 性 
更 强 。 

模型 评估 从 宽松 到 严格 依次 为 回 代 拟 合 、 交 
叉 验证 [ 其 极限 是 留 一 法 (leave one out，LO0O ) ] 、 独 
立 测试 ( 雇 圣 良 等 ,2012b)。 因 样本 较 少 ,不 划分 独 
立 测试 集 。 本 文 进一步 以 LO0O 给 出 了 基于 6 个 保 
留 分 子 描述 符 的 SVR 模型 的 预测 值 ( 表 1 ,图 1) ,其 
Ri,。= 0.8404。 由 图 1 可 见 ,预测 值 与 实验 值 分 布 
于 坐标 轴 对 角 线 附近 ,进一步 表明 本 文 所 建 非 线 性 
SVR 模型 可 信 。 

4.0 












































尼 =0.8404 
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预测 值 Predicted value 





“1.0 1.5 2.0 2.5 3.0 3.5 4.0 
实验 值 Experimental value 


图 1 留 一 法 检验 的 驱 避 剂 生物 活性 实验 值 与 预测 值 


Fig.1 Experimental values and predicted values of biological 














activities of repellents with leave-one-out test 


1022 昆虫 学 报 Acta Entomologica Sinica 


57 卷 





2.2 保留 分 子 描述 符 及 其 单 因子 效应 

6 个 保留 分 子 描述 符 的 单 因子 重要 性 显著 性 测 
验 结果 表明 ,其 下 值 均 大 于 临界 值 Foo0w6(1, 30) = 
7.56, 达 极 显 著 ( 表 2)。 其 单 因 子 效应 分 析 结 果 见 
图 2, 可 见 6 个 保留 分 子 描述 符 对 驱 避 活性 影响 的 
重要 性 依次 为 p4BCD > GATS7v > T(0..0) > JGI8 
> SssO > nArCONR2。 保留 描述 符 与 驱 避 活性 的 非 
线性 关系 明显 ,GSFRAG 程序 计算 的 是 分 子 图 像 C 
中 顶点 上 =2,3,…,10 时 某 一 特定 片段 出 现 次 数 ,其 
中 p4BCD 表示 片段 *3323*, 与 驱 避 活性 旦 开口 向 下 抛 
物 线 变化 ,过 高 或 过 低 沁 83 片段 数 均 对 活性 不 利 ; 








GATS7v 是 以 原子 范 德 华 体积 加 权 、 步 长 为 7 时 的 二 
维 吉尔 里 自 相 关 值 ,T(0.. 0) 是 两 个 氧 原子 间 的 拓 
扑 距离 和 , 均 与 驱 避 活性 呈 开 口 向 下 抛物 线 变化 ; 
SssO 是 电 性 拓扑 态 的 双 键 氧 原子 数 , 与 驱 避 活性 呈 
开口 向 上 抛物 线 变 化 ;JCI8 为 轨道 8 平均 拓扑 电荷 
指数 ,与 驱 避 活性 呈 近 似 线性 负 相 关 ;nArCONR2 为 
叔 酰胺 数 ,化 合 物 中 出 现 叔 酰 胺 对 活性 不 利 。 在 37 
个 样本 保留 描述 符 取 值 范 围 内 , 当 p4BCD = - 
0.6122 ,GATS7v = 0. 4267,T(0.. 0) = -0.9555， 
JGI8 =0,Sss0 =20. 31 ,nArCONR2 =0 时 化 合 物 预期 
了 驱 避 活性 最 高 。 





























表 2 特征 筛选 后 的 6 个 保留 描述 符 


Table 2 Six retained descriptors after feature screening 





























序号 组 名 描述 符 F 值 
No. Group name Descriptor F value 
1 GSFRAG p4BCD: GSFRAG 程序 算得 的 分 子 描述 符 p4BCD 571.3™ 
GATS7v: 吉尔 里 自 相关 值 ( 步 长 7, 原 子 范 德 华 体 积 加 权 ) Geary autocorrelation of 
2 2D autocorrelations . 341.4™ 
lag 7 weighted by van der Waals volume 
3 2D atom pairs T(0..0): 两 个 氧 原子 拓扑 距离 和 Sum of topological distances between 0..0 72 
4 2D autocorrelations JGI8: 轨道 8 平均 拓扑 电荷 指数 Mean topological charge index of order 8 243.7™ 
5 Atom-type E-state indices Sss0; 电 性 拓扑 态 的 双 键 氧 原子 数 Sum of ssO E-states 209.5™ 
6 Functional group counts nArCONR2: 叔 酰胺 (芳香 胶 ) 数 Number of tertiary amides (aromatic ) 172.3:7 
™* P<0.01. 
40 Shadow-Xlength 和 拓扑 描述 符 Kappa-3-AM ,而 摩尔 
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一 JGI8 
一 TO.0) 
一 nArCONR2 


一 p4BCD 
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.0 0.5 1.0 
标准 化 的 描述 符 Scaled value of descriptors 


图 2 保留 描述 符 的 单 因 子 效应 


Fig. 2 Single-factor effects of 6 retained descriptors 
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3 ”结论 与 讨论 


分 子 描述 符 与 生物 活性 间 往 往 存在 复杂 的 非 线 
性 关系 。 对 DEET 及 其 类 似 物 共 40 个 化 合 物 ， 
Bhonsle 等 (2007) 给 出 了 一 个 包含 30 个 描述 符 的 较 
优 多 元 线性 回归 模型 ,其 中 最 重要 的 6 个 描述 符 依 
次 为 相对 政 水 表面 积 Jurs-RASA 表面 电场 区 域 参 
数 Jurs-FPSA-3 、Balaban 拓扑 指数 JX .ADME 溶解 水 
平 (指明 分 子 的 液体 溶解 能 力 ) .分子 面积 投影 指数 




















折射 率 影响 不 大 ;尽管 其 R 高 达 0.989, 但 显然 包 
含 保留 描述 符 过 多 。 对 芳香 羧 酸 类 化 合 物 驱 晶 活 
性 , 相 比 薛 飞 群 等 (1997 ) 报道 的 最 优 六 元 ( 拟 ) 线 性 
回归 模型 (n = 30) ,本 文 所 建立 的 6 个 保留 描述 符 
的 非 线性 SVR 模型 明显 精度 更 高 、 覆 盖 样 本 更 多 (m 
=37) ;图 2 也 显示 多 个 保留 描述 符 与 驱 避 活性 的 
单 因子 效应 呈 抛 物 线 变化 。 这 表明 ,QSAR 研究 中 
应 优先 选用 基于 结构 风险 最 小 、 非 线性 、 适 于 小 样 
本 、 能 有 效 避 免 过 拟 合 的 SVR 为 基本 建 模 工具 。 

通常 的 2D-QSAR 研究 中 ,化 合 物 分 子 描述 符 仪 
涉及 沸点 参数 (B) 、 踢 水 性 参数 (logP) 、 电 性 参数 
(3 ) 立体 参数 (MR， 和 MR,)、 分 子 连接 性 指数 
('X,”X,”X 和 'X") 等 少数 几 种 ( 王 宗 德 等 ,2008; 
Garcoa-Domenech et al.,2010) ,不 能 全 面 表征 化 合 物 
与 活性 间 的 复杂 关系 , 常 导致 建 模 时 需 吻 除 部 分 
“ 离 群 ” 样本 ( 薛 飞 群 等 ,1997; Wang et al.，2008 ) ; 
本 文 结果 表明 ,有 些 “ 离 群 "样本 ,很 可 能 是 描述 符 
与 建 模 工具 选择 不 当 所 致 。 因 此 ,通过 量子 化 学 软 
件 , 对 每 一 化 合 物 获取 尽 可 能 全 面 的 数 以 千 计 初始 
分 子 描述 符 是 较为 稳健 的 策略 。 
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然而 ,小 样本 、 高 维特 征 不 但 导致 “ 维 数 灾难 ”， 
且 无 关 与 元 余 描 述 符 影 响 建 模 精 度 ,增加 模型 复杂 
性 并 使 得 模型 解释 困难 , 此 时 特征 选择 变 得 尤为 关 
键 。 本 文 结果 再 次 证 实 本 室 前 期 发 展 的 高 维特 征 非 
线性 选择 新 方法 BMSF 与 低 维 特征 非 线 性 选择 新 方 
法 WDEM 是 有 效 的 ( 代 志 军 等 ,2011] ;Zhang et al.， 
2012 ) 。 

本 文 所 建立 的 37 个 样本 .6 个 保留 描述 符 的 
SVR-QSAR 模型 为 新 的 蝇 类 芳香 凑 酸 衍生 物 高 效 驱 
避 剂 分 子 设计 奠定 了 基础 。 未 来 可 进一步 搭建 多 个 
芳香 法 酸 衍生 物 虚 拟 分 子 ,通过 PCLIENT 量子 化 学 
计算 在 线 获取 虚拟 化 合 物 的 6 个 保留 描述 符 ,代入 
模型 预测 , 取 预 测 活性 最 高 且 大 于 3.8( 原 数据 集 
B8 化合物 活性 最 高 为 3.8) 的 少量 虚拟 化 合 物 , 真 
实 合成 并 实验 验证 其 驱 避 活性 。 
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